Анализ данных о сердечно-сосудистых заболеваниях
(поиск инсайтов, составление рекомендаций стейкхолдерам)
Введение
Проблема
Сердечно-сосудистые заболевания (ССЗ) — основная причина смертности. Раннее выявление рисков критически важно.
Цель исследования
Анализ факторов риска и построение ML-моделей для оценки вероятности заболевания.
Задачи
- Исследовательский анализ данных (EDA).
- Очистка от выбросов и аномалий.
- Разработка предиктивных моделей.
- Формирование бизнес-рекомендаций.
Стейкхолдеры
Ключевые выгодоприобретатели результатов исследования:
🏥 Медицинские учреждения
- Оптимизация скрининга
- Снижение нагрузки на врачей
- Точность диагностики
👨⚕️ Врачи
- Поддержка принятия решений
- Приоритизация пациентов
👤 Пациенты
- Персонализированные рекомендации
- Раннее предупреждение
📉 Страховые компании
- Оценка рисков
- Превентивная медицина
Обзор данных
Источник: Cardiovascular Disease Dataset
Объем: 70 000 записей
Антропометрия:
age (возраст)
gender (пол)
height (рост)
weight (вес)
Образ жизни:
smoke (курение)
alco (алкоголь)
active (спорт)
Медицинские показатели:
ap_hi, ap_lo (давление)
cholesterol (холестерин)
gluc (глюкоза)
Целевая переменная:
Качество данных и очистка
В исходных данных обнаружены выбросы (ошибки ввода):
- Нереалистичное давление (напр. -150)
- Аномальный рост/вес
Целевая переменная
Вывод:
Классы практически идеально сбалансированы (~50/50).
Портрет пациента: Пол и Возраст
- Возраст: Медиана ~54 года. Пик риска смещен к 60 годам.
- Пол: В выборке преобладают женщины (65%), что типично для медицинских обследований в данной возрастной группе.
Фактор веса (BMI)
Индекс массы тела — один из ключевых индикаторов.
Наблюдение:
- Менее 40% пациентов имеют нормальный вес.
- Группы риска (избыточный вес + ожирение) составляют большинство.
Образ жизни и показатели
Влияние вредных привычек и уровня метаболизма.
- Холестерин: У 25% пациентов уровень выше нормы.
- Активность: 80% заявляют о физической активности.
Корреляционный анализ
Какие факторы связаны сильнее всего?
Ключевые связи:
- Cardio ↔︎ Давление (самая сильная связь).
- Cardio ↔︎ Возраст.
- Cardio ↔︎ Вес/BMI.
- Smoke ↔︎ Gender.
Моделирование: Подход
Для прогнозирования были выбраны два алгоритма:
- Logistic Regression (Линейная модель, интерпретируемая).
- Random Forest (Ансамблевый метод, улавливает нелинейности).
Процесс:
- Разделение данных: 80% Train / 20% Test.
- Stratified Split (сохранение баланса классов).
- Стандартизация признаков (StandardScaler).
Результаты моделирования
Сравнение точности (Accuracy) моделей на тестовой выборке.
Random Forest показал лучший результат: ~73.6%
Это достаточный уровень для систем первичного скрининга и триажа пациентов.
Важность признаков
Какие факторы модель Random Forest считает самыми важными?
- Давление (ap_hi) — доминирующий фактор.
- Возраст — второй по значимости.
- Холестерин — замыкает тройку лидеров.
Рекомендации стейкхолдерам
- Внедрить калькулятор риска на основе ML-модели.
- Особое внимание пациентам с BMI > 25 и возрастом > 50.
- Приоритизировать контроль систолического давления.
- Регулярный мониторинг давления (критический фактор).
- Контроль веса (коррелирует с давлением и ССЗ).
- Снижение уровня холестерина.
- Предлагать пакетные услуги: “Липидный профиль + Глюкоза + Измерение давления”.
- Интегрировать скоринг в результаты анализов.
Заключение
- Данные: Проанализировано 70 000 кейсов. Выявлены и удалены аномалии.
- Факторы: Подтверждена ключевая роль гипертонии и возраста.
- Модель: Разработан прототип на базе Random Forest с точностью ~73.6%.
- Внедрение: Модель готова к пилотному тестированию в качестве инструмента поддержки принятия врачебных решений.